首页> 外文OA文献 >Question Relevance in VQA: Identifying Non-Visual And False-Premise Questions
【2h】

Question Relevance in VQA: Identifying Non-Visual And False-Premise Questions

机译:VQa中的问题相关性:识别非视觉和虚假前提   问题

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Visual Question Answering (VQA) is the task of answering natural-languagequestions about images. We introduce the novel problem of determining therelevance of questions to images in VQA. Current VQA models do not reason aboutwhether a question is even related to the given image (e.g. What is the capitalof Argentina?) or if it requires information from external resources to answercorrectly. This can break the continuity of a dialogue in human-machineinteraction. Our approaches for determining relevance are composed of twostages. Given an image and a question, (1) we first determine whether thequestion is visual or not, (2) if visual, we determine whether the question isrelevant to the given image or not. Our approaches, based on LSTM-RNNs, VQAmodel uncertainty, and caption-question similarity, are able to outperformstrong baselines on both relevance tasks. We also present human studies showingthat VQA models augmented with such question relevance reasoning are perceivedas more intelligent, reasonable, and human-like.
机译:视觉问答(VQA)是回答有关图像的自然语言问题的任务。我们介绍了确定问题与VQA中图像的相关性的新问题。当前的VQA模型没有理由怀疑问题是否与给定的图像有关(例如阿根廷的首都是什么?),或者是否需要外部资源的信息来正确回答问题。这可能会破坏人机交互中对话的连续性。我们确定相关性的方法包括两个阶段。给定一个图像和一个问题,(1)我们首先确定问题是否是视觉的,(2)如果是视觉的,我们确定问题是否与给定的图像有关。基于LSTM-RNN,VQA模型的不确定性和字幕问题相似性,我们的方法在两个相关任务上均能胜过强基准。我们还提供了人类研究,这些研究表明,以此类问题相关推理增强的VQA模型被认为更智能,更合理且更像人类。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号